想像你是一位傳統煉金師,站在熊熊燃燒的煉金爐前。你怎麼知道配方煉得好不好?
傳統方式:
這種方式有什麼問題?你得一直站在爐子旁邊。離開五分鐘,可能整鍋就燒焦了。而且全憑主觀感覺,今天狀態好就成功,狀態不好就失敗。
現代煉金師:
裝上一個儀表板,上面顯示:
一眼就知道:「很好,一切正常,我可以去喝杯咖啡了。」
這就是 Metrics (指標) 的威力。
經過三天的學習,我們終於集齊了可觀測性的三位好朋友。讓我們總結一下他們的分工:
使用場景:
老闆:「為什麼昨天下午 3 點客戶抱怨 AI 給出錯誤答案?」
你:「讓我查一下日誌...」
(翻找 10 分鐘)
你:「找到了!RAG 檢索到過期的文件。」
使用場景:
老闆:「為什麼這個功能這麼慢?」
你:「讓我看一下 Trace...」
(分析路徑)
你:「找到了!RAG 檢索那一步花了 8 秒,因為沒有建立索引。」
使用場景:
老闆:「系統現在正常嗎?」
你:「正常!」(看了一眼儀表板)
「回應時間 1.2 秒,錯誤率 0.1%,成本在預算內。」
重點來了:Metrics 是唯一能讓你「不用等問題發生」就知道狀況的工具。
還記得 Day 20 我們聊過 TTFT 和 TPS 嗎?那是回應速度的指標。但一個健康的 AI 系統需要監控的遠不止速度。
就像醫生檢查病人,不會只量體溫,還要量血壓、心跳、血氧。AI 系統也需要「四大生命指標」。
核心問題:系統夠快嗎?
- 平均回應時間 (Latency):1.2 秒
- P95 回應時間:2.5 秒(95% 的請求在此之內)
- P99 回應時間:5.0 秒(99% 的請求在此之內)
- TTFT (首字回應時間):450 毫秒
- TPS (每秒生成字數):25.3 tokens/s
為什麼要 P95、P99?
想像你是餐廳老闆:
P95、P99 就是找出那些「倒楣的少數」,確保他們也有好體驗。
核心問題:回答正確嗎?使用者滿意嗎?
- 成功率:98.5%(請求成功完成的比例)
- 錯誤率:1.5%(請求失敗的比例)
- Guardrail 攔截率:0.8%(Day 17-19 的安全護欄觸發次數)
- 使用者滿意度:4.2 / 5.0(需要實作評分系統)
- 重試率:5%(使用者點「重新生成」的比例)
- 使用者回饋率:2%(主動標記「有幫助」或「沒幫助」)
自動 vs 手動收集:
品質指標可分為兩類:
Day 7 的 RAG 和 Day 17-19 的 Guardrails 都可以提供間接的品質指標,例如檢索相關性、安全過濾觸發次數等。
核心問題:燒錢速度如何?
- 每日總成本:$127.50
- 每請求平均成本:$0.05
- Token 使用量:2.5M tokens/day
- 快取命中率:65%(Day 21 的 Prompt Caching)
- 最貴的功能:客戶分析報告($0.25/次)
還記得 Day 22 的成本優化嗎?這些指標告訴你優化是否有效。
核心問題:系統的基礎設施健康嗎?
- 可用性 (Uptime):99.95%
- API 配額使用率:45% / 100%
- 記憶體使用率:62%
- 並發請求數:125(峰值 500)
- 佇列長度:8 個請求在等待
光有數字還不夠,重要的是「什麼時候該緊張」。
就像體溫計,不會只顯示「37.5°C」,還會告訴你:
綠燈 (Green):一切正常
平均回應時間:1.2 秒 (正常,目標 < 2 秒)
錯誤率:0.5% (正常,目標 < 1%)
每日成本:$85 (正常,預算 $150)
黃燈 (Yellow):需要注意
P95 回應時間:2.8 秒 (警告,目標 < 2.5 秒)
佇列長度:45 個 (警告,正常 < 20)
快取命中率:52% (警告,目標 > 60%)
紅燈 (Red):立刻處理
錯誤率:15% (嚴重,目標 < 1%)
每日成本:$250 (超標,預算 $150)
可用性:95% (嚴重,目標 > 99%)
還記得 Day 23 的半夜三點惡夢嗎?如果警報系統設計不好,你會被「假警報」煩死。
爛警報系統:
03:15 [警告] 回應時間 2.1 秒(超過 2 秒)
03:16 [警告] 回應時間 1.9 秒(恢復正常)
03:17 [警告] 回應時間 2.2 秒(超過 2 秒)
→ 你:「到底有沒有問題啊!!!」(崩潰)
聰明警報系統:
03:15 [注意] 回應時間開始波動(最近 5 分鐘平均 2.1 秒)
03:20 [警告] 回應時間持續偏高(最近 10 分鐘平均 2.3 秒)
03:25 [緊急] 回應時間嚴重超標(最近 15 分鐘平均 3.5 秒)
→ 你:「確實有問題,而且越來越嚴重,該起床修了。」
設計原則:
Metrics 不是孤立存在的,它是整個系統的「健康總覽」:
還記得 Day 1 我們說過「從賭徒到煉金師」嗎?現在,我們要再進化一次:從煉金師到科學家。
賭徒時代(Day 1):
煉金師時代(Day 2-25):
科學家時代(Day 26):
Metrics 讓你能做到:
不是憑感覺說「好像比較好」,而是用數字證明「確實更好」。
經過 26 天的修練,你的 AI 系統不再是神秘的黑盒子,而是一個透明、可控、可預測的智慧工房。
儀表板上的每個數字,都在訴說著系統的故事。
而你,已經學會了如何傾聽、如何理解、如何行動。